\chapter[Voz \\ {\small Ivã Marinheiro, Manuel Coelho e Vítor Farropas}]{Voz} 
\label{chap:vozt}
{\Large Ivã Marinheiro, Manuel Coelho e Vítor Farropas}

\begin{quotation}
  \textbf{Sinopse}
    \fontsize{10}{12}
    \usefont{OT1}{cmr}{m}{n}
    \selectfont\\\\
Este Capítulo é dedicado aos Sistemas Biométricos com base no reconhecimento da Voz. Neste estudo referem-se algumas das questões teóricas, sobretudo os seus fundamentos. Discutem-se, também, os aspectos de aplicação dos sistemas biométricos aplicados à voz.
\end{quotation}

\lettrine[lines=3]{V}{} \textbf{oz}, definida como produção de sons humanos emitidos pela laringe com o ar que sai dos pulmões, faculdade de falar, expressão de uma opinião ou mesmo a manifestação verbal \cite{wikivoz} é sem dúvida a materialização da comunicação oral, uma das maiores habilidades do ser humano que proporcionou uma forma rápida e consistente de perpetuar o conhecimento ao longo de gerações.

%Estruturalmente, os conteúdos estão organizados nas seguintes secções:

% \begin{itemize}
% \item \prettyref{sec:vozintroducao} - Introdução, descrição do fenómeno físico da Voz
% \item \prettyref{sec:vozteoria} - Teoria do Conceito Biométrico da Voz, verificação e identificação
% \item \prettyref{sec:vozaplicacao} - Aplicação 
% \item \prettyref{sec:vozaspectostecnicos} - Aspectos Técnicos do Som
% \item \prettyref{sec:vozcaracteristicas} - Características Acústicas do Sinal da Voz na Biometria
% \item \prettyref{sec:vozesquemareconhecimento} - Esquema de Reconhecimento da Voz
% \item \prettyref{sec:vozhmm} - Aplicação do Hidden Markov Model e Análise
% \item \prettyref{sec:vozconclusao} - Conclusões
% \end{itemize}

\section{Introdução}
\label{sec:vozintroducao}

A voz humana é um fenómeno despoletado com o nascimento do indivíduo e apresenta-se de várias formas, como o choro, grito, riso e sons da fala. É produzida através das vibrações criadas nas Cordas Vocais com a saída do ar dos pulmões e da força muscular exercida na laringe.

As suas características são ainda condicionadas pelos aparelhos digestivo e respiratório, nomeadamente:

\begin{itemize}
\item \textbf{Lábios:} Articulação de sons bilabiais e labiodentais
\item \textbf{Dentes:} Escoamento do som
\item \textbf{Língua:} Participa na produção dos sons
\item \textbf{Céu da Boca:} Projeção da voz
\item \textbf{Faringe:} Amplia o som
\item \textbf{Cavidade Nasal:} Vibração e amortização do som
\item \textbf{Laringe:} Contém as cordas vocais
\item \textbf{Traqueia:} Suporte para vibração das cordas vocais
\item \textbf{Pulmões:} Reservatório de ar
\item \textbf{Musculatura Respiratória:} Produz pressão no ar
\end{itemize}

\begin{figure}[htp]
\centering
\includegraphics[width=8cm]{voz_imagem1.jpg}
\caption{Voz - Componentes Fisiologicas da Voz\cite{clausvielhauer2005}\url{http://www.gta.ufrj.br/grad/09_1/versao-final/impvocal/propdosinal.html}}
\label{fig:componentes_da_voz}
\end{figure}


No contexto da biometria, a voz adquire o seu relevo, não como sinais sonoros contínuos no tempo (analógicos) com um espectro que varia entre os 100Hz e os 12kHz, mas como sequências numéricas passíveis de armazenamento, tratamento e análise.

\begin{figure}[htp]
\centering
\includegraphics[width=6cm]{voz_imagem2.jpg}
\caption{Voz - Imagem Analógica \url{http://leandrodriguesilva.wordpress.com/temas-sugeridos/tecnologias-de-acesso/}.}
\label{fig:imagem_analogica_da_voz}
\end{figure}

Um sinal analógico pode assumir qualquer valor de amplitude num intervalo.

\begin{figure}[htp]
\centering
\includegraphics[width=6cm]{voz_imagem2a.jpg}
\caption{Voz - Imagem Digital \url{http://leandrodriguesilva.wordpress.com/temas-sugeridos/tecnologias-de-acesso/}}
\label{fig:imagem_digital_da_voz}
\end{figure}

Um sinal digital só pode assumir valores de amplitude pré-determinados num intervalo.

Concretamente o processo de identificação da Biometria da Voz consiste na verificação de características comportamentais de um indivíduo, através da avaliação da sua dicção, timbre, fonética, um conjunto propriedades acústicas distintas, características da “fala”, comparando as mesmas com amostras (\textit{voice-prints}) previamente recolhidas e armazenadas. Esta verificação é possível com a utilização de algoritmos de classificação para reconhecimento de padrões.

Existem dois tipos de informação que se podem extrair da “fala” ou “sinal de voz”, as de baixo nível e as de alto nível. Consideram-se de alto nível as características que o ser humano utiliza, de forma inata, para distinguir pessoas, como por exemplo o idioma, o sotaque, a fluência do discurso e/ou o seu conteúdo informativo. As de baixo nível, mais utilizadas em sistemas de reconhecimento de voz, são por exemplo o ritmo, a frequência, o timbre e a amplitude.


\section{Teoria do Conceito Biométrico da Voz}
\label{sec:vozteoria}
O desenvolvimento dos Sistemas Biométricos da Voz está focado no reconhecimento e tem fundamentalmente duas aplicações diferenciadas, a verificação e a identificação.

Na verificação, o conceito é a autenticação de um indivíduo, garantir a fiabilidade da identidade pela voz. O próprio Sistema executa uma decisão binária quanto à identidade do mesmo depois do \textit{login} de acesso (um \textit{user} por exemplo) e a pronuncia de determinada(s) palavra(s).

Esta emissão de som ou “fala”, pode ser de dois tipos, fixo em que há uma predeterminação do conteúdo informativo, dependente de texto, ou livre sem restrição do conteúdo, identificado como independente de texto.

Na identificação, o conceito é identificar o indivíduo que emite o som ou “fala”, comparando-o com as amostras carregadas na base de dados do Sistema, decidindo a identidade do indivíduo em questão, se pertence ou não a um determinado grupo ou se é desconhecido para o Sistema.

O desenvolvimento deste tipo de Sistema, requer a captura das características biométricas durante um processo de registo, construção do perfil das mesmas, atributos únicos, convertidos pelo sistema em código, na sua última instância binário. O armazenamento desta informação é feito em qualquer estrutura convencional como bases de dados.

Tendo em conta que nenhum sistema biométrico garante 100 por cento de precisão e como o ser humano balança características físicas com características comportamentais que também se alteram com o decorrer do tempo, o modo da interacção entre a máquina e o homem é compreensivelmente deturpado com variáveis como o \textit{stress}, estado de saúde, trabalho, condições ambientais e inúmeras outras. Por esse mesmo motivo os Sistemas permitem essas variações, e a sua configuração é consequentemente ajustável.

A sua avaliação recai sobre os parâmetros do grau de fiabilidade, nível de conforto, nível de aceitação e custo de implementação \cite{luisilverman2001}. O grau de fiabilidade pode ser aferido tendo em atenção os valores FAR (\textit{False Acceptance Rate} – Taxa de Falsas Aceitações) e o FRR (\textit{False Rejection Rate} – Taxa de Falsas Rejeições).


Estas variáveis são mutuamente dependentes e a sua correlação impossibilita minimizar ambas em simultâneo, pelo que se tenta chegar a um ponto de equilíbrio adequado à aplicação do Sistema Biométrico apelidado de CER (\textit{Crossover Error Rate} – Taxa de Intersecção de Erros) que quanto menor for mais preciso é um Sistema Biométrico \cite{luisilverman2001}.

\begin{figure}[htp]
\centering
\includegraphics[width=7cm]{voz_imagem3.jpg}
\caption{Voz - Taxa de Intersecção de Erros \cite{luisilverman2001}}
\label{fig:taxa_insercao_erros_voz}
\end{figure}

O nível de conforto é um padrão subjectivo e está profundamente ligado aos utilizadores do Sistema, tal como o nível de aceitação. Um Sistema Biométrico mais intrusivo tem um nível de aceitação menor do que um Sistema pouco intrusivo como é o caso do Sistema da Biometria da Voz, uma das suas grandes vantagens. 
 
Os custos de implementação dos Sistemas Biométricos da Voz dependem das variáveis \textit{Hardware}, \textit{Software}, Integração com os Sistemas existentes, Formação dos utilizadores e Manutenção do Sistema. Este mesmo custo dependerá obrigatoriamente da análise do risco da informação/infra-estrutura que se pretende proteger em que há claramente uma grade diferença entre um \textit{Datacenter} Institucional e um PC da Biblioteca do IPB.


\section{Aspectos Técnicos do Som}
\label{sec:vozaspectostecnicos}
Para a Recolha e Armazenamento do Som, há que converter o mesmo do formato analógico para o formato digital.

A Digitalização é o processo que permite obter sequências binárias (\textit{bits}), através da transformação do sinal\footnote{\url{http://srm-multimedia.blogspot.pt/2005/11/digitalizao.html}}, e divide-se em amostragem, quantificação e codificação:

A Amostragem é um conjunto finito de valores assumidos pelo sinal analógico. A retenção destes valores é realizada em intervalos de tempo regulares e produz um sinal designado de sinal amostrado.

A Quantificação é o processo pelo qual o sinal amostrado é convertido noutro sinal, o sinal quantificado. Este sinal assume apenas um determinado número de valores e como tal pode ser codificado em código binário.

A Codificação recolhe cada valor resultante da quantificação e associa-lhe um conjunto de \textit{bits}, transformando o sinal no sinal digital final. 

\begin{figure}[htp]
\centering
\includegraphics[width=7cm]{voz_imagem9.jpg}
\caption{Voz - Conversão da Informação Contínua em Informação.  \url{http://srm-multimedia.blogspot.pt/2005/11/digitalizao.html}}
\label{fig:conversao_info_cont_info_voz}
\end{figure}

A precisão do som em formato digital varia conforme a taxa de amostragem e a quantidade (profundidade) de \textit{bits} para cada amostra, ou seja, quanto mais elevados são os valores (frequência/quantidade de \textit{bits} no mesmo período temporal), maior será a fidelidade do som digital em relação ao som analógico. 


Taxa de amostragem é a quantidade de amostras de um sinal analógico recolhidas numa determinada unidade de tempo medida em \textit{Hertz} (Hz).

\begin{figure}[htp]
\centering
\includegraphics[width=5cm]{voz_imagem5.jpg}
\caption{Voz - Taxas de Amostragem.}% \cite{desconhecido12:_sinais_analo_digit}}
\label{fig:taxa_amostragem_voz}
\end{figure}

Em 1928, Henry Nyquist dos Laboratórios Bell, estabeleceu que a representação digital de um sinal analógico seria funcionalmente idêntico à forma de onda original se a taxa de amostragem fosse pelo menos duas vezes a maior frequência identificável na forma da onda analógica.

A taxa de amostragem de amostras/segundos, para uma largura de banda de \textit{f m} Hz, é denominada “taxa de Nyquist” e o seu inverso: \textit{1/2 f m} segundos é denominado “intervalo de Nyquist”.

\textbf{Amostragem Ideal}
O sinal analógico contínuo no tempo e em nível, contém uma infinidade de valores, mas o meio de comunicação tem largura de banda limitada, o que impõe um limite de quantidade de dados a transmitir da amostra deste sinal. De acordo com o Teorema de Nyquist \cite{wikivoz} a frequência de amostragem de um sinal analógico, que permita a sua reconstrução com uma perda mínima de informação, deve ser igual ao dobro da maior frequência do espectro desse sinal. As figuras seguintes ilustram o princípio da amostragem: 

\begin{figure}[htp]
\centering
\includegraphics[width=7cm]{voz_imagem6.jpg}
\caption{Voz - Amostragem de um Sinal Analógico}% \cite{desconhecido12:_sinais_analo_digit}}
\label{fig:amostragem_sinal_analogico_voz}
\end{figure}


Na seguinte figura representou-se um sinal senoidal com taxas de frequências de amostragem próximas do limite de Nyquist. 

\begin{figure}[htp]
\centering
\includegraphics[width=5cm]{voz_imagem7.jpg}
\caption{Voz - Sinal Senoidal}% \cite{desconhecido12:_sinais_analo_digit}}
\label{fig:sinal_senoidal_voz}
\end{figure}

A primeira amostragem com uma frequência duas vezes maior que a do sinal, demostra que existem amostras suficientes para garantir a fidelidade do sinal, sem erro de \textit{aliasing}.

Recorda-se que a frequência de amostragem é o inverso do período de amostragem.                        

Na segunda amostragem, a taxa é o dobro da frequência do sinal e não coincide com os picos da sinusóide (o sinal corresponde exactamente a zero), ainda que se aplicasse um desfasamento dos pontos (o sinal teria valores) não corresponderia à amplitude certa a não ser que por coincidência os pontos correspondessem aos referidos picos. Aqui comprova-se a necessidade de valores acima do dobro da frequência do sinal conforme Teorema de Nyquist. 

Na terceira amostragem, a frequência é menor que o dobro da frequência do sinal e a quantidade de amostras é insuficiente para fidelizar o sinal, ou seja reproduzindo a vermelho a amostra na figura, é visível o efeito de \textit{aliasing}.

Exemplos de taxas de amostragem\footnote{\url{http://rutefofmultimedia.wordpress.com/2012/01/}} e qualidade do som associado:

\begin{figure}[htp]
\centering
\includegraphics[width=6cm]{voz_imagem8.jpg}
\caption{Voz - Taxas de Amostragem / Qualidade}%\cite{OficinaMultimedia}}
\label{fig:taxas_amostragem_qualidade_voz}
\end{figure}

Na quantificação as amostras recolhidas são tratadas, em que se arredonda as amplitudes para valores (níveis) pré-definidos no sistema de digitalização.

Esse conjunto de níveis pré-definidos são representados por palavras binárias (\textit{bits}) e o mapeamento dos níveis em \textit{bits} é a terceira etapa do processo de digitalização, a codificação \url{http://leandrodriguesilva.wordpress.com/temas-sugeridos/tecnologias-de-acesso/}.


\section{Aplicação Prática}
\label{sec:vozaplicacao}
O Sistema Biométrico da Voz destaca-se dos outros sistemas no sentido de se tratar de um método não-intrusivo e com a possibilidade de implementação e utilização remota, o que se verifica por exemplo na autenticação para operações via telefone.

Por outro lado o custo associado a este sistema é significativamente mais reduzido relativamente a outros métodos, uma vez que não necessita de dispositivos especiais (por exemplo um telefone ou um microfone ligado a um computador).

No entanto, este tipo de Sistema possui algumas condicionantes, como aliás todos os sistemas possuem, como a permeabilidade ao ruído (na maioria dos casos, existe ruído à volta do indivíduo, outras pessoas, veículos, máquinas, natureza), às variações do canal do Som (o canal pode ser afectado, por cortes na emissão, interferências), às variações comportamentais humanas (o indivíduo varia de voz consoante o seu estado de espírito, mais agressiva, mais grave, mais pausada), ou mesmo à saúde do individuo (uma constipação pode afectar a dicção). Todos estes factores podem comprometer o sistema.

Um dos principais objectivos a alcançar por um Sistema deste tipo, é minimizar estas interferências de forma a conceber um Sistema robusto, pois as aplicações são tantas quanto as que a criatividade humana alcança.

No que diz respeito a aplicações, ressalva-se ainda neste ponto a diferença entre o tema abordado no campo concreto da Biometria e a área das aplicações de Reconhecimento da Voz, em que o propósito é reconhecer palavras ou comandos.

O software de Reconhecimento de Voz destina-se a distinguir palavras/comandos e a transformá-las em caracteres ou executar instruções, por sua vez a Tecnologia Biométrica está centrada no timbre, forma, tempo, conjunto Som e não no seu conteúdo informativo.


\section{Características Acústicas do Sinal da Voz na Biometria}
\label{sec:vozcaracteristicas}
A Biometria de Voz é um modelo numérico do som padrão e ritmo da voz de um indivíduo. Este voiceprint é tão único para um indivíduo como uma impressão digital. É composto por um conjunto de informações (designadas de atributos) extraídas do sinal de Voz. Não existe um modelo ideal de obtenção desses mesmos dados.

A Voz de um indivíduo é extremamente difícil de tratar para fins de comparação Biométrica, já que muitos atributos do som que são medidos vão desde o idioma, sotaque, frequência, magnitude e formato. A vibração das cordas vocais e os padrões criados pelos componentes fisiológicos que materializam a voz são tão distintos como as impressões digitais.

Para uma melhor percepção das características mencionadas, esquematizam-se os atributos considerados:\\
\textbf{Altura:} 
\begin{itemize}
\item agudo
\item médio
\item grave
\end{itemize}
\textbf{Duração:} 
\begin{itemize}
\item curto
\item longo
\end{itemize}
\textbf{Intensidade: }
\begin{itemize}
\item forte
\item fraco
\end{itemize}
\textbf{Timbre:}
\begin{itemize}
\item cores do som 
\end{itemize}


\section{Esquema de Reconhecimento da Voz}
\label{sec:vozesquemareconhecimento}
O Sistema de Reconhecimento da Voz divide-se fundamentalmente em 4 fases distintas, Aquisição do sinal de Voz, Pré Processamento, extracção de Parâmetros e Identificação.

Quando se realiza uma captura do Sinal de Voz para um sistema de autenticação, esta pode parecer exactamente igual para o ouvido humano à reproduzida por um gravador, mas quando se efectua a análise matemática detalhada desta impressão, a extracção das caracteristicas, ela tende a revelar grandes diferenças.

Existem vários métodos de extracção \cite{dhp2000} utilizados neste tipo de mecanismos Biométricos, concretamente o \textit{Mel-Frequency Cepstral Coefficients}-MFCC, \textit{Subband Spectral Centroid Histogram}-SSCH, \textit{Power Normalized Cepstral Coefficients}-PNCC, \textit{Linear Predictive Coding}-LPC, \textit{Linear Predictive Cepstral Coefficients}-LPCC, \textit{Perceptual Linear Prediction}-PLP e \textit{Neural Predictive Coding}-NPC.

Concretamente neste Capítulo, será analisado com maior detalhe o \textit{Mel-Frequency Cepstral Coefficients} - MFCC.

\begin{figure}[htp]
\centering
\includegraphics[width=8cm]{voz_imagem16.jpg}
\caption{Voz - Sistema de Reconhecimento de Voz \cite{otaviano2007}}
\label{fig:sist_reconhecimento_voz}
\end{figure}


\textbf{Pré-Processamento}
Após a aquisição do sinal de voz e respectivo tratamento (conversão para formato digital) inicia-se o pré-processamento que se divide em duas etapas, a pré-enfase e divisão do sinal em \textit{frames} e janelas de tempo.

\textbf{Pré-Ênfase}
As baixas frequências concentram a maior parte dos dados da voz. No entanto, a informação das altas frequências é a mais importante para o reconhecimento. 

Este pré-processamento do sinal faz com que todos os valores de amplitudes, de todos os sinais estejam na mesma gama de valores normalmente -1 e 1. 

Assim se garante que todos os sinais tenham um processamento equivalente em relação ao volume da voz, ou seja, os sons mais baixos e mais altos serão processados da mesma forma, com o respectivo algoritmo de reconhecimento.

Uma das formas de conseguir esta normalização é dividir o valor de cada amostra do sinal pelo maior valor de amplitude do mesmo.

Por fim realiza-se a detecção do início e fim do sinal da voz para remover de forma precisa os períodos de silêncio existentes antes e após o sinal que não possuem informação relevante, podem conter ruído e a duração dos mesmos pode ser variável, dificultando o reconhecimento. 

Este pré processamento acaba por eliminar a quantidade de informação desnecessária que iria gastar recursos e consequentemente tornar o processo mais lento. %\cite{chu2003}.

A seguinte equação descreve o processo de pré-enfase realizado no sinal mostrado.

\begin{align}
Y(n) = X(n) - a.xX(n -1)   para 1 ≤ n < M ,  
\end{align}


M é o número de amostras do sinal mostrado X(n), Y(n) é o sinal pré enfatizado e o parâmetro constante "a" e usualmente escolhido entre 0,9 e 1.% \cite{adriano12:_utiliz}.

\textbf{Divisão do Sinal em \textit{Frames} e Janelas de Tempo}

Em todas as aplicações práticas de processamento de sinais, é necessário trabalhar com "pequenas porções" ou \textit{frames} do sinal, a não ser que se trate de um sinal de curta duração.

Esta situação deve-se especialmente às técnicas de análise convencionais de sistemas lineares invariantes no tempo (LTI) \cite{adriano99:_utiliz_tecnic_proces_digit_sinais}.

Selecciona-se uma parte do sinal que possa ser assumido como estacionário. 

Formalmente, uma \textit{frame} de voz representa o produto de uma janela discreta w(n) de tamanho L com duração "l", com relação à sequência de voz discreta (pré-enfatizada\footnote{A pré-ênfase intensifica as altas frequências cuja intensidade em regra é muito baixa em função do processo natural de geração de voz (RABINER;JUANG, 1993) e minimiza as baixas frequências.\url{http://pt.scribd.com/doc/82907152/11/Caracteristicas-espectrais-de-tempo-curto}} y(n), que resulta na selecção de um trecho do sinal pré-enfatizado \cite{adriano99:_utiliz_tecnic_proces_digit_sinais}.

A seguinte equação descreve o processo descrito:
\begin{align}
f(n) = y(n) * w(l-n)  
\end{align}

f(n) é uma \textit{frame} do sinal pré-enfatizado y(n), e w(n) é a janela aplicada, ou seja multiplica-se a janela, pré-enfatizado do processo anterior pelo modelo da janela escolhido.

Um modelo de janela de tempo habitualmente utilizado é o modelo de janela de Hamming, já que atenua a transição entre as \textit{frames} adjacentes. 

\begin{figure}[htp]
\centering
\includegraphics[width=8cm]{voz_imagem17.jpg}
\caption{Voz - Janela de Hamming.}
% \cite{wikiwinfunc}}
\label{fig:janela_hamming_voz}
\end{figure}

Representação matemática, de uma versão modificada da janela de
Hamming\footnote{\url{http://translate.google.pt/translate?hl=pt-PT\&langpair=en|pt\&u=http://en.wikipedia.org/wiki/Window_function}},
  semelhante à de uma onda cosenoidal \cite{andradesoares}.  
\begin{equation}
  \label{eq:kjdsalkjd}
      w(n) = 0.54-0.46cos (2\pi n/N)    
\end{equation}


N representa o tamanho da janela de Hamming desejada, caso n seja menor que zero ou maior ou igual a L - o tamanho da janela original, será atribuído o valor zero à janela de Hamming resultante.
\\
\\
\textbf{Extracção de Parâmetros}

Nesta fase são obtidos os coeficientes que serão utilizados
posteriormente para a identificação. 

Dois dos coeficientes mais utilizados são os cepstrais e os
mel-cepstrais, permitem uma redução do volume de dados, sem perda
significativa de informação útil, o que possibilita Sistemas mais
ágeis e robustos. 

A maioria dos Sistemas de Reconhecimento da Voz actuais, utilizam os
coeficientes mel-cepstrais como parâmetro de reconhecimento,
substituindo os habituais coeficiente cepstral dos Sistemas mais
antigos \cite{andradesoares}. 

A diferença entre o cálculo dos coeficientes cepstrais e dos
coeficientes mel-cepstrais está na aplicação de um conjunto de filtros
digitais ao espectro real do sinal, antes da aplicação da função
logarítmica \cite{adriano99:_utiliz_tecnic_proces_digit_sinais}.  

O objectivo destes filtros são a aproximação da resposta humana a
estes sinais sonoros. 

A unidade de medida utilizada é a Mel, que mede a frequência ou picos
percebidos num determinado tom, e tal como sucede no ouvido humano,
esta unidade não corresponde linearmente à frequência física. 

É possível comparar uma frequência real, medida em Hz, e a frequência
percebida, medida em Mels
\cite{adriano99:_utiliz_tecnic_proces_digit_sinais} como se comprova
pela seguinte equação: 

\begin{equation}
Mel=2595.log10(1+f/700)  
\end{equation}

f é a frequência acústica em Hz.

\begin{figure}[htp]
\centering
\includegraphics[width=5cm]{voz_imagem11.jpg}
\caption{Voz - Aproximação da Escala MEL}
\label{fig:escala_mel_voz}
\end{figure}

O processo de aquisição dos MFCC (\textit{Mel Frequency Cepstral Coefficients}) é matematicamente descrito na equação:
\begin{figure}[htp]
\centering
\includegraphics[width=5cm]{voz_imagem10.jpg}
\end{figure}


\textbf{Aquisição dos \textit{Mel Frequency Cepstral Coefficients}}


para 0 ≤ n < P , em que c(n) é o enésimo coeficiente mel-cepstral, P é o numero de coeficientes mel-cepstrais extraídos, K é o numero de filtros digitais utilizados e S(k) é o sinal de saída do conjunto de filtros digitais \cite{adriano99:_utiliz_tecnic_proces_digit_sinais}.

A utilização de janelas de ponderação sobre os coeficientes mel-cepstrais obtidos (janelas de \textit{liftro}) permite enfatizar componentes com mais informação espectral \cite{adriano99:_utiliz_tecnic_proces_digit_sinais}. 

Ponderação l(n) obtida pela equação:

\begin{figure}[htp]
\centering
\includegraphics[width=5cm]{voz_imagem18.jpg}
\end{figure}
para 0 ≤ n < P , Q é a constante coeficiente de \textit{liftro} (habitualmente igual a 22) e P é o numero de coeficientes previamente extraídos \cite{adriano99:_utiliz_tecnic_proces_digit_sinais}.
\\
\\
\textbf{Identificação}

A identificação depende directamente das características previamente recolhidas e dos coeficientes extraídos, concretamente para o nosso caso os mel-cepstrais.

As técnicas utilizadas para comparação de padrões mais conhecidas na literatura são as estatísticas e as determinísticas. 

Nas técnicas estatísticas, as comparações de padrões são feitas pela medida da função verossimilhança, ou probabilidade condicional, da observação do modelo. 

Nas técnicas determinísticas, o padrão é assumido como uma réplica perfeita e o processo de alinhamento é necessário para calcular a distância 
%\cite{parreiracarrijo}.

Algumas técnicas de comparação e identificação de voz:

\begin{itemize}
\item Quantizacao Vetorial Multisecção
\item \textit{Dynamic Time Warping}\footnote{é um algoritmo para comparar e alinhar duas sequências que variam de acordo com o tempo. É utilizado em vídeo, áudio e gráficos mas principalmente em reconhecimento de voz.\url{http://pt.wikipedia.org/wiki/Dynamic_time_warping}}
\item Redes Neurais
\item Classificadores Polinomiais
\item Função Densidade de Probabilidade e \textit{Hidden Markov Models}
\end{itemize}


\section{Aplicação do \textit{Hidden Markov Model} e Análise}
\label{sec:vozhmm}
Os modelos ocultos de Markov\footnote{O HMM ou modelo oculto de Markov
  é um modelo estatístico cujo sistema modelado é assumido como um
  processo de Markov com parâmetros desconhecidos e o desafio é
  determinar os parâmetros ocultos a partir dos parâmetros
  observáveis. Os parâmetros extraídos do modelo podem então ser
  utilizados para efectuar novas análises, por exemplo no
  reconhecimento de padrões. O estado é visível, e os únicos
  parâmetros utilizados são as probabilidades de transição de
  estado. Cada estado possui uma distribuição de probabilidade sobre
  os possíveis
  resultados.\url{http://pt.wikipedia.org/wiki/Modelo_oculto_de_Markov}}
são excelentes para a representação da voz. A distribuição de
probabilidade de saída modela o evento de voz, como o início de um
fonema, enquanto que as probabilidades de transição modelam a duração
destes eventos.  

Desta forma um HMM é capaz de absorver variações temporais entre diferentes amostras de uma mesma palavra.

Esta característica é bastante útil quando se pretende modelar o sinal de voz, uma vez que o pronunciar de uma mesma palavra pode ter diferentes tempos de duração dependendo, do contexto no qual a palavra está inserida, de características particulares do locutor, como do seu estado emocional.

O sinal de voz é contínuo no tempo e apesar de se poder converter o mesmo com um algoritmo de quantificação vectorial, trabalhar directamente com este sinal contínuo produz resultados mais correctos mas aumenta a complexidade da estimativa e consequentemente tem um custo de recursos maior.

Recorrendo a uma matriz de covariância reduz-se esse custo mas diminui a performance, mas ainda assim possui melhores resultados que um HMM discreto. 

Segundo \cite{rabiner1993}, é preferível utilizar a matriz de covariância diagonal com muitas misturas a utilizar poucas misturas com a matriz de covariância completa.

Para a aplicações práticas dos modelos ocultos de Markov é necessária a utilização de várias sequências de análise independentes para treinar um único modelo. 

No reconhecimento automático da fala, o treino deve ser feito com várias vocalizações da mesma palavra, representativas das várias formas de pronunciar a mesma para tornar o modelo mais robusto.

Cada vocalização subdividida em \textit{frames}, iguais que se sobrepõem. A partir destas \textit{frames} é possível extrair uma série de parâmetros do sinal de voz que são bastante mais representativas do que puramente uma sequência.

De cada \textit{frame} é extraído um vector de parâmetros, o seu encadeamento de
variações no tempo modelado pelo HMM.

Habitualmente as \textit{frames} tem uma duração de 20 milissegundos com sobreposição de 10 milissegundos e um evento acústico abrange algumas \textit{frames}.

A partir da avaliação estatística do comportamento dos parâmetros do evento acústico é possível estimar os parâmetros do modelo HMM - médias, covariâncias, coeficientes de ponderação e matriz de transição para um HMM contínuo, que passará a representar aquele evento, caracterizando assim um estado do modelo de Markov. 

Cada expressão pode passar a ser representada por uma sequência de estados. Durante esta etapa cria-se um HMM para cada palavra, cada pronúncia distinta de uma mesma palavra é utilizada na criação de um único modelo.

Na etapa de reconhecimento compara-se uma dada pronuncia de uma palavra com cada um dos modelos treinados, verificando se a sua sequência de estados é semelhante à sequência do modelo para obter a sua identificação. 

Como análise prática ao trabalho desenvolvido, efectuou-se uma análise ao paper “\textit{HMM Voice Recognition Algorithm Coding}”\cite{jarng} em que foram seleccionadas as 72 sílabas coreanas mais utilizadas.

Para verificar a taxa de reconhecimento da voz, foram gravadas  as sílabas com a voz de 4 homens adultos com audição normal.

Extraíram-se os sinais acima de uma determinada amplitude e aplicou-se a sílaba correspondente.

Depois de carregadas algumas sílabas com os respectivos sinais, passou-se à fase de aprendizagem, e foi testado o reconhecimento, em que à medida que se aumentou o número de sílabas foi visível o aumento da taxa de reconhecimento, mesmo aumentando o número de silabas da palavra.

Foram testados diferentes números de Melfrequency índex que demonstrou haver uma relação directa com a taxa de reconhecimento (24 resultou na taxa mais elevada).

\begin{figure}[htp]
\centering
\includegraphics[width=10cm]{voz_imagem21a.jpg}
\caption{Voz - Resultados Obtidos – \textit{Hidden Markov Models}}
\label{fig:hmm_voz}
\end{figure}

Demonstra que quantos mais dados se utilizarem na aprendizagem mais elevados são os valores atingidos pela taxa de reconhecimento, quando se aumenta o índice do Melfrequency, de 13 a 24, a taxa de reconhecimento também aumenta, no entanto o tempo de processamento também aumenta.


\section{Conclusões}
\label{sec:vozconclusao}
Os sistemas biométricos têm sofrido melhoramentos importantes nos últimos anos. Isto na procura de sistemas biométricos que sejam eficientes e eficazes na identificação e autenticação não intrusiva de individuos credenciados para aceder a outros sistemas.

Neste capítulo sobre a voz forma abordados diferentes aspectos da característica biométrica e da forma como podemos fazer a sua caracterização.Tendo por base as etapas do sistema de reconhecimento da voz: aquisição, pré-processamento, extracção de parâmetros e identificação, podemos concluímos que a qualidade da amostra recolhida é importante para a constituição da base de dados para a identificação e autenticação futura dos individuos registados. Assim, a qualidade destes sistemas será tanto maior quanto menor for o seu nível de intrusão para com os indiviuos que o usam.

Estas particularidades da voz, e o seu reconhecimento como característica biométrica, esta relacionada com o facto de podermos através de aplicação de análise matemática podermos extrair características e atributos quantificáveis que permitem registar, identificar e autenticar indiviuos.

As suas características no contexto biométrico: ritmo, frequência, timbre e amplitude, podem na fase de extração de características do Sistema de Reconhecimento da Voz, serem classificadas e quantificadas usando métodos de extracção, como por exemplo, o cepstrais e mel-cepstrais.

Outra abordagem analisada foi o método HMM que é capaz de modelar a voz de forma a absorver variações temporais entre diferentes amostras da mesma palavra, permitindo assim o reconhecimento de palavras no contexto em que esta está inserida e de características particulares como o estado emocional do locutor. No entanto, este método, acresce custos de processamento e complexidade que podem dificultar a sua implementação.

Parece-nos que, em termos conclusivos, a voz é uma caracterísitica biométrica que pode ser mais usada nesta área dada a sua \textit{voiceprint} ter características que a tornam única neste contexto.

%\clearpage 
%\cleardoublepage

%\section{Referências}
%\label{sec:vozreferencias}
%As referências estão no ficheiro [voz.tex], no entanto (23.03.2012) foi indicado que devem estar nas referências globais [estudo.bib]. As indicações de referência estão com a numeração da secção (ainda...)
% [.1.] Wikipedia, a enciclopedia livre, disponivel em http://pt.wikipedia.org/wiki/Voz_humana

% [.2.] VIELHAUER Claus.  Biometric user authentication for IT security: from fundamentals to handwriting Birkhäuser, 2005

% [.3.] Informações, Segurança da Informação, disponivel em http://leandrodriguesilva.wordpress.com/temas-sugeridos/tecnologias-de-acesso/

% [.4.] Liu S. and Silverman M.: A Practical Guide to Biometric Security Technology, IEEE Computer Society, 2001

% [.5.] srm-multimedia , disponivel em http://srm-multimedia.blogspot.pt/2005/11/digitalizao.html

% [.6.] Oficina Multimédia, disponível em http://rutefofmultimedia.wordpress.com/2012/01/

% [.7.] Marcus Paulo Riki Yanase and D. A. Reynolds and L. P. Heck, "Automatic Speaker Recognition - Recent Progress, Current Application, and Future Trends”. Apresentado na AAAS 2000 Meeting Humans, Computer and Speech Symposium, Fev. 2000.

% [.8.] PUC-Rio – Certificação Digital Nº 0912874/CA

% [.9.] John R. Deller Jr. and John H. L. Hansen and John G. Proakis, “Discrete-Time Processing of Speech Signals”, New York: IEEE, 2000 

% [.10.] Petry Adriano and Zanuz Adriano and BARONE Dante Augusto Couto; “Utilização de técnicas de processamento digital de sinais para a identificação automática de pessoas pela voz” artigo submetido a Universidade Federal do Rio Grande do Sul, Porto Alegre – RS

% [.11.] Biometria: Seus métodos e aplicações, Christopher Henrique Otaviano, Orientador Prof. Msc. Rubens Barbosa Filho, 2007

% [.12.] ANDRADE A. O. and SOARES A. B.; “Tecnicas de Janelamento de Sinais” Artigo submetido a Universidade Federal de Uberlandia

% [.13.] PARREIRA Wemerson D. and CARRIJO Gilberto A. ; “Reconhecimento de Locutor pela Voz usando o Classificador Polinomial e Quantificação Vectorial” Disponível em http://200.231.172.253/cnmac/storal2/wemerson_parreira_ST20.pdf

% [.14.] Bártolo Maia, Descaracterização Perceptiva da Assinatura Vocal, Dissertação realizada no âmbito do Mestrado Integrado em Engenharia Electrotécnica e de Computadores, 2010

% [.15.] Chu W. C. Speech coding algorithms. Wiley-Interscience, 2003.

% [.16.] Rabiner L. R. and Juang B. H. Fundamentals of speech recognition. Prentice Hall, 1993.

% [.17.] HMM Voice Recognition Algorithm Coding, Soon Suck Jarng / Chosun University, Dept. of Control & Instrumentation, Robotics Eng. Chosun University, 375 Seoseok-Dong, Dong-Ku, Gwang-Ju, South Korea

% [.18.] Reconhecimento De Voz Para Palavras Isoladas, Anderson Gomes da Silva, orientador Tsang Ing Ren, 2009

% [.19.] Wikipédia, a enciclopédia livre, disponível em http://translate.google.pt/translate?hl=pt-PT&langpair=en|pt&u=http://en.wikipedia.org/wiki/Window_function

% [.20.] Sinais Analógicos e Digitias, disponível em http://www2.dc.uel.br/~sakuray/
